查看原文
其他

企研·学术大数据平台 | 雁过留痕——中国历年行政区划(修正)数据正式上线

企研数据 社科大数据 2022-12-31

重点提示:1.民政部公布的六位行政区划代码存在少量纰漏,本文进行了修正;2. 我们深度清理了1980至2021年的历年行政区划代码,补充了完整的省、地、县三级信息,并修正了已有数据的纰漏。

注:数据下载方式在文章最后喔!

行政区划级别与类型

自秦始皇废分封、置郡县以来,中国的行政区划体制几经变革,到目前事实上形成了省(Province)、地(Prefecture)、县(County)、乡(Township)四级地方行政区,一般认为乡以下还可以再分一级,是为村(Village)。
应当注意的是,在中国,宪法中并未严格规定“省地县乡”四级行政区,只是有如下表述:“(一)全国分为省、自治区、直辖市;(二)省、自治区分为自治州、县、自治县、市;(三)县、自治县分为乡、民族乡、镇。直辖市和较大的市分为区、县。自治州分为县、自治县、市。”因此对于中国的二级行政区是叫“市”还是“地”并未统一。结合民政部的资料、我国的实际情况以及学者们的习惯,我们还是决定避免使用“市”来指代某一特定的行政区级别,因为“市”这一单位存在直辖市、地级市、县级市等不同情况,不同级别的城市之间显然存在不可比的问题。
中华人民共和国民政部(以下简称“民政部”)的官方网站上提供了截至2020年12月31日的行政区划统计表,统计结果如下图所示。

注:民政部公布的统计表的统计标准与一般关于行政级别的划分存在差异。即此处四个直辖市的市辖区均是按照县级行政区来统计的,而直辖市的市辖区的区长按照行政级别一般为正厅级,对标普通地级市的市长。

与民政部的统计口径不同,我们在构建行政区划代码数据表的过程中,将直辖市的市辖区看作地级行政区,而将直辖市的下辖县看作是省级行政区直辖的县级行政区。如下图所示,箭头表示直接管辖关系,图中不仅标明了常规的省、地、县三级管辖方式,也纳入了如重庆市直接管辖丰都县、河南省直接管辖济源市、湖北省直接管辖神农架林区、新疆维吾尔自治区直接管辖石河子市等由省级行政区直接管辖县级行政区的特殊情况。

注:一级行政区、二级行政区、三级行政区的说法并未见诸于官方文档,而是民间约定俗成的说法,官方的统计资料中使用省级、地级、县级来表示。

行政区划代码编码规则

行政区划代码作为我国有效管理广阔疆域的工具,在学术研究领域也有重要应用。例如,身份证号的前六位,一般就是登记户口时的行政区划代码;法人和其他组织的统一社会信用代码中也包含了用以标识地址的6位行政区划代码;此外,在管理、划分、匹配统计数据与微观数据的地址信息时,行政区划代码也是常用的工具。然而我国行政区划的调整时有发生,这给与地区相关的数据的整理与利用带来了不小的挑战。即便不考虑行政区划调整的情况、仅注重在同一年度内将地址信息和行政区划代码进行匹配,也不是一件容易的事。
本节将讨论当前使用的行政区划代码一般编码规则,编码规则的历史变迁以及早期编码规则存在的问题。

一般编码规则

为有效管理,我国编制了行政区划代码,这一套代码随着行政区划调整与编码规则修改发生了诸多变化,目前经国家确定形成标准的规则是,对于县级及以上的行政区,采用6位数的行政区划代码来表示,不同位数表示了不同的含义:
(1)第一位数表示大方向的地区(区域),1表示华北地区,2表示东北地区,3表示华东地区,4表示中南地区,5表示西南地区,6表示西北地区,7留给了台湾省,8表示特别行政区;第一、二位结合表示省级行政区
(2)第三、四位结合表示省内不同的地级行政区,一般从省会城市开始赋01,依次增加;对北京、上海、天津、重庆四个直辖市,01表示市辖区,02表示下辖县;对直辖市以外的省级行政区,第三、四位为90或00时,表示其为省直辖县级行政区;对省级行政区本级,第三、四位也用00表示;
(3)第五、六位结合用来区分不同的县级行政区,编码一般从02开始递增;对于一般的地级行政区本级,第五、六位用00表示;对省级行政区本级,第五、六位也用00表示。
以上规则可以以2020年的部分行政区划代码为例加以说明:

几点特别说明

需要特别注意的是,早些年我国的编码规则出现过调整,导致目前的规则无法完全解释历史的代码,包括但不限于:
(1)1984年到1994年,由地级行政区政府代管的县级市,第三、四位被冠以90即表示省级直辖县级行政区的代码,第五、六位从01开始递增;
(2)1985年及以前,部分由地级行政区政府代管的县级市,其第三、四位并非是90,也与代管其的地级行政区没有明显的关系;
以上两条可以用江苏省苏州市下辖常熟市的例子来说明,常熟市自1983年设立以来始终由苏州市管辖,其代码在1983年时与苏州市无明显关联,1984-1994年间表现为省级直辖县级行政区,1995年开始才表现为被苏州市代管,这一系列变化完整对应了上述规则的变化情况:
(3)20世纪80年代,县级市的市辖区有时也会出现在县级及以上的行政区划表中,排列在该县级市之后,从代码上来看会被误认为是与该县级市平级的、同属一个地级行政区的县级行政区;
第(3)条所描述的情形可以用黑龙江省佳木斯市为例说明,1982年及之前,佳木斯市是县级市,属合江地区管辖,下辖向阳区、永红区、前进区、东风区、郊区五个市辖区;1983年,佳木斯市升格为地级市,在行政区划代码上来看,五个区始终是按照县级行政区的规则赋码,只是从合江地区“管辖”变成了佳木斯市管辖:
(4)部分城市经过了从地级降为县级、县级又复升为地级的变迁,而在此过程中行政区划代码始终未变,即仍然保持着最开始作为地级市时的编号,即使降格为县级市时,仍然保留了市辖区的行政区划代码。
以克拉玛依市为例,1982年以前,克拉玛依市为县级市;1982年,克拉玛依市被升格为地级市,设四个市辖区;1984年,新疆维吾尔自治区政府决定将克拉玛依市降格为不设区的县级市,而民政部却始终承认克拉玛依市为设区的市,直到1990年,自治区政府才决定将克拉玛依市恢复为地级市,并恢复四个市辖区。如下表所示,在民政部的行政区划代码中,克拉玛依市始终呈现出地级市的样貌。
以上几点特殊情况的存在导致对1994年往前的行政区划代码,无法根据民政部公布的6位行政区划代码与编码规则还原出完整的省地县三级行政区信息,而必须通过对比行政区划变更的信息加以确定。

原始数据及其数据质量问题

通过详细梳理、清洗行政区划代码原始数据与变更情况,为跨时间的数据匹配提供帮助,具有重要的学术意义。我们的考察发现,除去编码规则本身之外,民政部网站提供的行政区划原始数据还存在各式各样的纰漏,因此,第一步就是先修正现有数据的纰漏,得到一份尽可能完整准确记录历年行政区划设置情况、同时符合编码规则的行政区划数据,然后再以此为基础、结合行政区划变更记录,开发其他的用途。

原始数据与参考信息来源

1980-2020年的行政区划代码来自于中华人民共和国民政部网站;
1981年到1998年的行政区划变更记录来自于中华人民共和国中央人民政府网站,1999-2021年的行政区划变更记录来自于中华人民共和国民政部网站;
2021年的行政区划代码根据2021年的行政区划变更记录推导而来;
其他辅助信息的来源包括但不限于:各地方政府网站、百度百科、行政区划网[1]、各地方年鉴、各地方县志、词典网[2]

数据质量问题

民政部网站公布的行政区划代码存在各种类型的纰漏,包括但不限于:
(1)信息不全,如三沙市的西沙区、南沙区虽然出现在行政区划列表中,但是未被赋予代码;
(2)信息遗漏,如2014年的澳门特别行政区的信息被遗漏了、1984-1987年的湖南省岳阳市南岳区的信息被遗漏了;
(3)信息错误,如1986年及以前的石嘴山市被误写成石咀山市、1988年以前的郑州市鼓楼区被误写成古楼区、2003年的蛟河市与桦甸市的代码被错误互换;
(4)变更不同步,如沈阳市浑南区在2014年以后就从东陵区更名为浑南区,但是民政部官网上直到2016年才进行了更正;
(5)信息不完整,如内蒙古的白云鄂博矿区,2006年及以前在民政部官网上始终是以“白云矿区”的名称登记的。
综上所述,要想获得正确完整的行政区划历史信息,需要交叉比对历年的行政区划代码和行政区调整信息、并结合其他信息来源,方能修正好原始数据。

数据修正与处理方法

对原始数据中的特殊情况,我们按如下思路进行了处理:
(1)对港澳台地区,补充2014年被遗漏的澳门特别行政区记录,代码与前后年份保持不变;对1980-2013年之间,按照之后的规则补充港澳台地区的行政区划代码;
(2)对其他错误或遗漏的情况,按照实际情况修正或补充;
(3)对无从援引,也无从参考民政部已经赋予了的、正确的行政区划代码的情况,根据编码规则人为赋予一个行政区划代码,此种情形仅出现在1985年之前的极少数个例中;
(2)和(3)中涉及人为赋码的变更情况如下:
(4)对县级市的市辖区被赋予了县级行政区代码的情况,因这些县级市的市辖区在县级市升为地级市以后,往往会被连带着划分到升格后的地级市下,并按照新的地级市的规则修改代码,且考虑到当时编码规则尚不完善,草率删除这些县级市辖区会损失重要信息,故我们决定不予处理,尊重当时的编码,并按照编码规则,将被列出的县级市市辖区看作是与县级市本身平级的县级行政区,此种情形仅出现在1994年之前的极少数个例中。
此外,对西沙区、南沙区这两个目前为止尚未被赋予行政区划代码、且未与其他行政区发生管辖范围调整的的行政区,我们决定不予处理,保持行政区划代码空缺的状态。
最终,行政区划表删除多余记录1条,保留记录134670条,其中包括补充民政部遗漏记录28条,为处理需要补充添加记录99条,根据实际情况修正记录172条

数据展示与下载

字段展示:

样例数据:

数据下载方式

  1. 点击“登录/注册”,选择“机构用户(IP)登录”。
  1. 导航栏选择“更多数据”-“行政管理”-“行政区划”。
  1. 进行数据筛选后,点击“下载数据”。

引用规范

使用企研·中国学术大数据平台研究发表的学术论文或研究报告,需在中文成果中标明“ 本论文(报告)使用数据全部(部分)来自企研·中国学术大数据平台(CBDPS)”,英文成果中标注数据来源为“China Big Data Platform for Scholarship”。

申请数据试用

本次数据试用仅限已开通试用的高校/智库下载使用,具体已开通试用名单如下:
已开通试用高校名单(顺序按开通时间排列)
长按扫码,查看名单
企研·中国学术大数据平台现为国内各大高校开通3-6月不等的试用期,可通过校内IP访问,查询下载数据。欢迎各位读者朋友向学校/机构图书馆推荐企研·中国学术大数据平台(https://r.qiyandata.com)!
具体介绍参考文章企研·学术大数据平台 | 开放试用申请!
长按扫码 联系客服

友情链接

[1]

行政区划网链接: http://www.xzqh.org/html/

[2]

词典网链接: https://search.cidianwang.com/



加入企研·中国学术大数据平台数据分享群,获取更多数据资源及新鲜资讯


·END·

星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!



点击搜索你感兴趣的内容吧



往期推荐


企研·学术大数据平台 | 重庆工商大学开通试用

CPPGD | 污染监测数据库正式上线!限时开放数据下载!

企研·中国学术大数据平台 | 开放试用申请!

企研·中国学术大数据平台 | 用户指南

共同富裕(第26期)| 最高检支持共同富裕示范区建设21条意见全文公布、国台办支持浙江高质量发展建设共同富裕示范区



戳原文,更有料!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存